通过评测任务对问答效果进行测评,从用户提出问题开始,到系统召回内容,再到LLM生成回答的整个流程进行综合评测。
注意事项
效果评测按实际评测时产生的计算资源消耗计费。
操作步骤
选择目标地域,切换到OpenSearch-LLM智能问答版。
在实例列表单击目标实例右侧的管理,在左侧导航栏选择效果对比。
在评测任务页签下,单击创建评测任务进入创建评测任务页面,输入任务名称,选择评测数据集,问答参数配置参见下表。
参数
说明
模型选择
对话搜索时使用的模型,选择范围为模型列表中所有可用的模型。
说明可用模型是指可进行问答测试的模型。
Prompt
对话搜索时使用的Prompt,需要提前配置Prompt模板,详情请参见Prompt管理。
Prompt参数说明
参数
类型
必需
取值范围
默认值
描述
attitude
String
否
-
normal
对话内容的语气,默认为normal
normal:无
polite:使用和蔼和礼貌的语气
patience:使用委婉和耐心的语气
rule
String
否
-
simple
对话内容的详细程度,默认为detailed
detailed:详细和专业
stepbystep:详细且按步骤
noanswer
String
否
-
sorry
无法回答问题时的回复,默认为sorry
sorry:抱歉,根据已知信息无法回答该问题
uncertain:我不知道
language
String
否
-
Chinese
回答问题使用的语言,默认为Chinese
Chinese:中文
English:英语
Thai:泰语
Korean:韩语
role
Boolean
否
-
true
开启后,将定制回答的角色。
role_name
String
否
-
AI小助手
定制回答的角色,例如:AI小助手
out_format
String
否
-
text
输出内容的形式,默认为text
text:文本
table:表格
list:列项
markdown:markdown
文档召回参数说明
参数
类型
必需
取值范围
默认值
描述
filter
String
否
-
-
召回文档时根据目标字段进行过滤。例:filter = field = value
top_n
INT
否
(0, 50]
5
召回的文档数。
sf
Float
否
[0,+∞)
1.3
文档召回的阈值,sf越大则召回文档的向量相似度越小。
dense_weight
Float
(0,1)
0.7
选择稀疏向量模型时可选,表示稠密向量的权重,稀疏向量的权重则为:1-dense_weight。
formula
String
否
-
向量相似度
文档召回的排序公式。
operator
String
否
-
AND
文本召回时,文本token之间的关系。
参考图片参数说明
参数
类型
必需
取值范围
默认值
描述
sf
Float
否
[0,+∞)
1
参考图片的阈值,对于稀疏向量模型sf越大则参考图片与内容的向量相似度越大,对于稠密向量模型sf越大则参考图片与内容的向量相似度越小。
dense_weight
Float
否
(0,1)
0.7
选择稀疏向量模型时可选,表示稠密向量的权重,稀疏向量的权重则为:1-dense_weight。
Query理解参数说明
参数
类型
必需
取值范围
默认值
描述
query_extend
Boolean
否
-
false
开启后会扩展Query,提升召回质量
query_exten_num
INT
否
(0,+∞)
5
扩展Query的数量
人工干预参数说明
参数
类型
必需
取值范围
默认值
描述
sf
Float
否
[0,2]
0.3
人工干预问题的阈值,默认为0.3,sf越大则越容易匹配到人工干预词条
其它参数说明
参数
类型
必需
取值范围
默认值
描述
return_hits
Boolean
否
-
false
是否在结果中返回文档召回的结果
csi_level
String
否
-
strict
绿网配置
none: 表示不需要经过绿网处理
loose: 内容需要经过绿网处理,且只有绿网判断确定存在敏感内容,就会被拦截,返回无结果
strict: 内容需要经过绿网处理,且一旦绿网判断确定或者疑似存在敏感内容,就会被拦截,返回无结果
history_max
INT
否
(0,20]
20
多轮对话历史最大轮数,最大20轮
link
Boolean
否
-
false
是否在结果中返回文档召回的具体来源
完成上述参数配置后单击确定创建评测任务,测评完成系统给出综合得分。
单击测试报告查看每条问答的评测结果。如评测结果不准确,单击人工评估,对结果进行人工订正。